Inleiding Statistiek

Bennett Kleinberg

Week 3

Week 3

  • z-score
  • basis waarschijnlijkheid/kansrekenen
  • de binomiale verdeling

Het kernidee

Sampling

  • we trekken steekproeven uit de populatie
  • idealiter doen we dit aselect (d.w.z. elk lid van de populatie heeft evenveel kans om in onze steekproef te zitten)
  • de data (verkregen uit de steekproef) kunnen in verschillende vormen worden weergegeven
    • beschrijvende statistiek
    • ruwe data
    • door de procedure van dataverzameling

Het is nuttig om data te zien als een verdeling.

Voorbeeld

  • Stel dat we 1000 studenten hebben gevraagd naar hun cijfer voor Inleiding Statistiek.

Beschrijvende statistieken:

  • \(M = 7.02\)
  • \(SD = 0.99\)
  • \(var = 0.98\)

Histogram

Dichtheid / Density

Kijkend naar verdelingen

  • kunnen we een idee krijgen van de spreiding van de data
  • kunnen we de aard van de verdeling begrijpen (meer in week 4)
  • kunnen we een idee krijgen van de waarschijnlijkheid van een bepaalde waarde \(X\)

Wat we weten

Posities in de verdeling

Waar ligt een waarde van \(X = 5,5\) in de verdeling?

Posities in de verdeling

Waar ligt een waarde van \(X = 5,5\) in de verdeling?

  • Maar wat als ik de locaties wil vergelijken?

Stel dat we een andere steekproef hebben…

Andere steekproef

Posities in de verdeling

  • Dus willen we een statistiek (een score) die ons de locaties geeft
  • … in een vergelijkbare zin
  • … ten opzichte van de verdeling.

We kunnen het gemiddelde ter oriëntatie nemen…

… zodat we kunnen zeggen hoe dicht / ver een waarde is van het gemiddelde

De z-score

Idee: we lokaliseren een punt ten opzichte van het gemiddelde in termen van SD’s.

\(z = \frac{X - \mu}{\sigma}\)

Veronderstel: \(\mu = 7\) en \(\sigma = 1\)

Voor onze waarde van 5.5:

\(z = \frac{X - \mu}{\sigma} = \frac{5.5 - 7}{1} = -1.5\)

Een waarde van 5.5 in onze data heeft een z-score van -1.50.

z-scores

Vergelijking van de twee

z-scores van onze voorbeelden

Rode verdeling: \(X \sim N(\mu, \sigma)\) –> \(X \sim N(7.00, 1.00)\)

  • Een cijfer van 8.0
  • \(z = \frac{X - \mu}{\sigma} = \frac{8.0-7.0}{1} = 1\)
  • Een cijfer van 8.0 heeft een z-score van 1.00 (d.w.z. het is één standaardafwijking boven het gemiddelde)

Blauwe verdeling: \(X \sim N(\mu, \sigma)\) –> \(X \sim N(7.00, 0.50)\)

  • Een cijfer van 8.0
  • \(z = \frac{X - \mu}{\sigma} = \frac{8.0-7.0}{0.5} = 2\)
  • Een cijfer van 8.0 heeft een z-score van 2.00 (d.w.z. het is twee standaarddeviaties boven het gemiddelde)

Dit is heel nuttig

  • We kunnen nu werken met gestandaardiseerde waarden
  • We kunnen ook hele verdelingen standaardiseren

z-transformaties

Zelfde score, vind z

Zelfde z, vind scores

We kunnen nu ook verdelingen “herschalen”

Stel dat we deze data willen projecteren op een nieuwe verdeling:

  • met \(M = 100\) (origineel: \(M=7.0\))
  • en \(SD=10\) (oorspronkelijk: \(SD=1.0\))
id value z-score new value
1 6.0 -1.0 90
2 4.5 -2.5 75
3 9.5 2.5 125
4 7.5 0.5 105
5 5.5 -1.5 85

z, sigma, and mu

Uit de z-scoreformule kunnen we \(z\), \(\mu\), \(X\) en \(\sigma\) afleiden:

\(z = \frac{X - \mu}{\sigma}\), i.e.

\(X = \mu + z\sigma\), and

\(-\mu = z\sigma - X\), and

\(\sigma = \frac{X-\mu}{z}\)

Generalisatie

Als we de verdeling “standaardiseren”, wat is dan het effect op het gemiddelde en de standaardafwijking?

  • het gemiddelde: wordt 0.00
  • de SD: wordt 1.00

Neem deze populatie met \(\mu=3\) en \(\sigma=0.80\)

id value z
1 1 -2.50
2 2 -1.25
3 3 0.00
4 4 1.25
5 5 2.50

Dit leidt tot:

\(\mu = \frac{-2.50-1.25+0.00+1.25+2.50}{5} = \frac{0}{5} = 0\)

\(\sigma^2 = \frac{SS}{N} = \frac{(-2.50)^2+(-1.25)^2+(0.00)^2+(1.25)^2+(2.50)^2}{5} = \frac{5}{5} = 1\)

Zou je me vertrouwen?

Stel dat…

Basis waarschijnlijkheid

Simpelste vorm:

  • Waarschijnlijkheid van iets = \(\frac{iets}{alles}\)
  • \(P(A) = \frac{\#A}{\#\ mogelijke\ uitkomsten}\)

Vereist aselecte steekproeftrekking (zie pagina 163)!

Voorbeelden

  1. \(P(captain) = \frac{1}{11} = 0.09 = 9\%\)
  2. \(P(birthday) = \frac{1}{365} = 0.0027 = 0.27\%\)
  3. \(P(correct\ guess) = \frac{1}{4} = 0.25 = 25\%\)

Terug naar ons probleem

We kennen de raadkans: 0.50 (of 50%).

  • Dus voor elke voorspelling is het \(P(juist)=0.50\)
  • De voorspellingen zijn onafhankelijk, dus moeten we ze vermenigvuldigen:

\(P(1st\ correct\ and\ 2nd\ correct)=0.50*0.50 = 0.25\)

Voor 10 voorspellingen:

\(P(correct)*P(correct)*P(correct)*...\) –> \(P(correct)^{10}\)

\(P(0.50)^{10} = 0.0009765625\) of 1/1024

A great scam!

Verjaardagskans

Wat is de kans dat twee studenten op dezelfde dag jarig zijn in een groep van 10/25/50 studenten?

We gaan dit stapsgewijs in de live sessie doen

Remember Maria?

Maria is 26 jaar, vrijgezel, openhartig, en erg slim. Ze studeerde af in de rechten. Als student was ze zeer begaan met kwesties van discriminatie en miscarriage of justice en nam ze deel aan wekelijkse demonstraties voor dierenrechten.

Wat is waarschijnlijker?

  • A: Maria werkt in een advocatenkantoor
  • B: Maria werkt in een advocatenkantoor en doet pro bono werk voor dieren-rechten activisten

Joint probability

Formalising the problem:

  • \(P(A)\) (Maria werkt in een advocatenkantoor)
  • \(P(B)\) (Maria werkt in een advocatenkantoor en doet pro bono werk voor dieren-rechten activisten)

Waarom is \(P(B) < P(A)\)?

\(P(B)\) –> \(P(A)\) + doet pro bono werk voor dieren-rechten activisten

Maak does pro bono work for animal-rights activists) = \(P(C)\)

Gezamenlijke waarschijnlijkheid

Engels: Joint probability

Twee gebeurtenissen die samen gebeuren, zijn minder waarschijnlijk dan elke gebeurtenis afzonderlijk (als ze onafhankelijk zijn).

Dus \(P(B) = P(A \cap C) = P(A)*P(C)\)

Stel:

  • \(P(A) = 0.6\)
  • \(P(C) = 0.7\)
  • \(P(B) = P(A)*P(C) = 0.6*0.7 = 0.42\)

Screening example

Voorwaardelijke waarschijnlijkheid

Engels: Conditional probability

Wat we willen is: kans op TERRORIST gegeven dat er een ALARM is

In kansnotatie wordt dit uitgedrukt als: \(P(T \mid A)\)

Solving the problem

Terrorist Passenger
Terrorist 950 50 1,000
Passenger 4,950 94,050 99,000
5,900 94,100 100,000

\(P(terrorist \mid alarm) = 950/5900 = 16.10\%\)

De normale verdeling

  • belangrijkste verdeling in de statistiek
  • ook wel genoemd: Gaussische verdeling, klokvormige verdeling
  • symmetrische vorm

Gedefinieerd door twee parameters:

  • \(\mu\) en \(\sigma\), uitgedrukt als \(X \sim N(\mu, \sigma)\)
  • speciaal geval: \(X \sim N(0, 1)\) (de standard normal)

Opmerking: een normale verdeling is altijd klokvormig, maar niet elke klokvormige verdeling is een normale verdeling.

Standard normal

Breder

Smaller

Ander gemiddelde

De normale verdeling

We kunnen elke y-waarde lokaliseren.

Elke x-waarde correspondeert met een waarschijnlijkheid via de probability density function (PDF) (NL: Kansdichtheidsfunctie):

\(Y = \frac{1}{\sqrt{2\pi\sigma^2}}e^\frac{-(X-\mu)^2}{2\sigma^2}\)

Bijv. voor \(X = 3\) in \(N(0,1)\)

\(Y = \frac{1}{\sqrt{2\pi}}e^\frac{-(3)^2}{2} = \frac{1}{2.51}e^{-4.5} = \frac{1}{2.51}*0.01 = 0.0039\)

dus: de waarschijnlijkheid van \(X=3\) in een standaard normale verdeling is ~0.39%.

Probability density function (PDF)

We kunnen de PDF toepassen en de exacte vorm van de normale verdeling verkrijgen.

Maar dit hoeven we niet te doen

Er is een mooie relatie tussen de verdeling en z-scores.

En we kunnen secties van de functie beschrijven in termen van z-scores.

De oppervlakte = 1

Waarschijnlijkheid uit verdeling

  • We weten dat de hele oppervlakte (let op: de curve is asymptotisch aan beide zijden) alle waarden omvat
    • d.w.z. dat het gebied onder de curve 1 moet zijn
  • Dus weten we ook dat de helft van het gebied gelijk is aan 0.50
  • En 1/3 van het gebied is gelijk aan 33.33%
  • enz.

De helft van de oppervlakte is gelijk aan 50%

z-waardes

We kunnen de oppervlakte tussen twee x-waarden berekenen.

z-waardes

We kunnen de oppervlakte tussen twee x-waarden berekenen.

Dat is niet nodig, want we weten hoe deze gebieden zich verhouden tot de z-scores:

Oppervlakte = 68.26%

Oppervlakte = 95.44%

The unit table

  • De informatie over de z-score en de oppervlakte is te vinden in de eenheidstabel
  • Volledige tabel in Appendix B (p. 647-650)
z Prop in body Prop in tail Prop between M and z
1.00 0.8413 0.1587 0.3413
1.96 0.9759 0.0250 0.4750

Proportie in body (z=1.00)

Proportie in tail (z=1.00)

Proportie tussen M en z (z=1.00)

Onze ingredieënten

  • We weten welke lichaam/staart/M-z waarschijnlijkheden corresponderen met een z-score
  • Dus kunnen we berekenen hoe waarschijnlijk bepaalde waarden zijn:

Voor een standaardnormaal, hoe waarschijnlijk is het om een waarde van \(X=0.5\) te verkrijgen?

Opmerking: we moeten eigenlijk preciezer vragen: hoe groot is de kans op een waarde van maximaal 0.5?

Ons doel

De eenheidstabel gebruiken

Wat is de kans om een waarde van maximaal 0.5 te hebben?

z Prop in body Prop in tail Prop between M and z
0.50 0.6915 0.3085 0.1915

Het groene gebied komt overeen met het aandeel in het lichaam = 69.15%.

Een waarde van maximaal 0.5 (dus 0.5 of lager) heeft een kans van 69.15%.

Andere vraag, andere oppervlakte

Hoe groot is de kans op een waarde van ten minste 0.5?

Opmerking: dit betekent “0.5 of hoger”"

Nieuw doel

De eenheidstabel gebruiken

Hoe groot is de kans op een waarde van ten minste 0.5?

z Prop in body Prop in tail Prop between M and z
0.50 0.6915 0.3085 0.1915

Het groene gebied komt overeen met het aandeel in de staart = 30.85%.

Een waarde van ten minste 0.5 (d.w.z. 0.5 of hoger) heeft een waarschijnlijkheid van 30.85%.

Volledig voorbeeld

  • Van een normale verdeling
  • naar een z-score
  • naar waarschijnlijkheid

Hoe groot is de kans dat je groter bent dan 1.90m?

We gaan hier dieper op in tijdens de live sessie.

Vragen die we kunnen beantwoorden

  • Hoe groot is de kans op een IQ score van 130?
  • Hoeveel mensen hebben een IQ score tussen 99 en 101?
  • En hoeveel een score tussen 150 en 151?

Meer in de live sessie

De binomiale verdeling

  • Sommige variabelen zijn categorisch
  • b.v. ze nemen één van een paar mogelijke waarden aan (groen, blauw, bruin)
  • of het gooien van een munt (kop of munt)

We noemen deze data binomiale data.

En de bijbehorende verdeling de binomiale verdeling.

Binomiale data

2 mogelijke uitkomsten A en B.

  • \(P(A) = p\)
  • \(P(B) = q\)

Omdat we maar twee uitkomsten hebben, \(P(A) + P(B) = 1\), dus

  • \(p + q = 1\)
  • \(q = 1-p\)

Neem ons voorbeeld van het raden!

50/50 kans

  • \(P(A) = p = 0.50\)
  • \(P(B) = q = 1-p = 0.50\)

Laten we \(p\) aanduiden als een juiste gok.

Dus als ik één keer gok: \(p = 0.50\)

  • Twee uitkomsten: goed of fout.

Verder raden

2 keer raden: nu hebben we vier uitkomsten

  • juist juist
  • juist onjuist
  • onjuist juist
  • onjuist onjuist

Dus we kunnen tellen:

  • beide correct: 1/4 = 0.25
  • beide fout: 1/4 = 0.25
  • één goed (en één fout): 2/4 = 0.50

Laten we onze mini-studie doen

  • Ik gok 10 keer
  • en krijgen 2 keer de juiste

Is dit te verwachten?

Hoe (on)waarschijnlijk is dat?

Wat als we dit 1000 keer deden…

Dit lijkt heel “normaal”

Een miljoen keer

Kenmerken van de binomiale verdeling

Formeel beschreven door twee parameters:

\(X \sim B(n, p)\)

  • \(n\) = aantal trials (bijv. 10)
  • \(p\) = kans op succes

Opmerking: met \(n=1\) wordt de binomiale verdeling de Bernoulli verdeling genoemd.

De binomiale verd. benadert de normale verd.

Nadert de normaal met toenemende \(n\). Dan:

\(\mu = pn\), and

\(\sigma = \sqrt{npq}\)

We kunnen dus ook weer gebruik van z-scores maken!!

\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}}\)

Exacte kans voor X

  • Ik raad 10 keer
  • en heb het goed 2 keer (\(X=2\))

We weten:

  • \(n=10\)
  • \(p = q = 0.5\)

Dus:

\(\mu = pn = 0.5*10 = 5\)

\(\sigma = \sqrt{npq} = \sqrt{10*0.5*0.5} = \sqrt{2.5} = 1.58\)

Naar en z-score

\(X=2\)

\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}} = \frac{2-5}{1.58} = -1.90\)

Minstens 2: kijk naar de lichaam (body proportion) in de eenheidstabel: 0.9713 (97.13%)

Hoogstens 2: door te kijken naar de staart (tail proportion) in de eenheidstabel: 0.0287 (2.87%)

\(X=10\)

\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}} = \frac{10-5}{1.58} = 3.16\)

Kijkend naar de staart waarschijnlijkheid in de eenheidstabel: 0.0008 (0.08%)

Door afronding \(\approx\) 1/1024!

Herinner je het kern idee?

Recap

  • z-scores
    • waarom ze nuttig zijn
    • hoe ze te verkrijgen
    • hoe punten te lokaliseren
  • waarschijnlijkheid
    • gebieden van verdelingen als waarschijnlijkheden
    • de normale verdeling
    • de binomiale verdeling

Volgende week

  • steekproeftrekking en verdelingen
  • toetsing van hypothesen
  • betrouwbaarheidsintervallen